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WE: ”视觉 跟踪 是 计算 机 视觉 中 的 一 个 重要 课题 ， 近 年 来 随 着 它 在 无 人 机 、 智 能 交通 、 


人 


机 交互 等 方面 的 深入 应 用 ， 受 到 了 研究 者 的 广泛 关注 与 研究 ， 并 取得 众多 的 研究 成 果 。 在 


视觉 跟踪 中 ， 目 标 特征 表达 作为 最 基础 也 是 最 重要 的 部 分 ， 直 接 关 系 着 最 终 的 跟踪 效果 ， 


合适 的 目标 特征 表达 可 大 大 提升 结果 的 准确 性 。 本 文 对 视觉 跟踪 中 常用 的 目标 特征 表达 方 
法 进行 了 整理 与 归纳 ， 将 其 分 为 了 三 类 ， 分 别 为 视觉 特征 、 数 学 特征 和 以 卷 积 神经 网 络 为 


主 的 语义 特征 ， 并 对 它们 进行 了 详细 地 分 析 和 比较 。 其 中 ， 相 对 于 视觉 特征 和 数学 特征 ， 


语义 特征 能 够 更 加 有 效 地 体现 物体 内 在 类 别 信息 ， 对 形变 、 遮 挡 等 均 有 较 高 的 鲁 棒 性 。 同 


时 ， 本 文 还 提出 了 目标 特征 表达 在 复杂 性 、; 准 确 性 和 重 棒 性 方面 所 存在 的 问题 。 
关键 词 : ”视觉 跟踪 : 目标 特征 ;特征 表达 ;视觉 特征 ， 数 学 特征 ;语义 特征 
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Abstract: Visual tracking is an important subject in the field of computer 
vision, recently with the in-depth application in unmanned aerial vehicle, 
intelligent transportation, and human-computer interaction, it has been 
attracting researchers’ increasing attentions and researches, and great 
research achievements have been made. As the most fundamental and important 
part of visual tracking, the target feature expression is directly related 
to the tracking effect. The appropriate target feature expression can 
greatly improve the accuracy of tracking results. In this paper, the target 
feature expression methods commonly used in visual tracking are collated 
and summarized, and here they are classified into three categories, such as 
visual feature, mathematical feature, and semantic feature mainly based on 
convolutional neural network. Additionally, these three categories are 
analyzed and compared in detail, which concludes that relative to the 
visual feature and mathematical feature, the semantic feature can more 
effectively reflect the intrinsic classification information of target, and 
has high robustness for target tracking with shape change and partial 
occlusion. Moreover, this paper proposes some problems of target feature 
expression existing in complexity, accuracy, and robustness 
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1 引言 
视觉 跟踪 是 计算 机 视觉 的 热点 研究 课题 ， 在 无 人 机 Xiao L, Meng G, Luo H, et al. Dynamic 


path planning based on improved boundary value problem for unmanned aerial vehicle[J]. 


Cluster Computing, 2016, 19(4): 1-10.Wang X, Li B, Geng Q. Runway Detection and Tracking for 
Unmanned Aerial Vehicle Based on an Improved Canny Edge Detection Algorithm[C]. 


International Conference on Intelligent Human-Machine Systems and Cybernetics, 2012, 149- 


152.、 智 能 交通 Hadi R A, George L E, Mohammed M J. A Computationally Economic Novel 


Approach for Real-Time Moving Multi-vehicle Detection and Tracking toward Efficient Traffic 
Surveillance[J]. Arabian Journal for Science & Engineering, 2016, 1-15.Hai D, Hua T. Development 


of a tracking-based system for automated traffic data collection for roundabouts[J]. Journal of 


Modern Transportation, 2017, 1-12.、 人 机 交互 Joslin C A E Q. Dynamic gesture recognition[C]. 


Instrumentation and Measurement Technology Conference, 2005. 1706-1711. 55: 77 H 3k 74 T IK 
功 的 应 用 ， 受 到 研究 者 的 广泛 关注 与 深入 研究 。 对 于 视觉 跟踪 的 步骤 ，Naiyan WangWang 
N, Shi J, Yeung D, et al. Understanding and diagnosing visual tracking systems[C]. The IEEE 


International Conference on Computer Vision (ICCV), 2015. 3101-3109. 将 跟踪 过 程 分 为 五 个 着 


运动 模型 、 特 征 提 取 、 观 测 模型 、 模 型 更 新 和 总 体 效果 后 处 理 ;，Yi WuWu Y, Lim J, Yang 


M. Online object tracking: A benchmark[C]. IEEE Conference on Computer Vision and Pattern 


Recognition((CVPR)), 2013. 2411-2418. 认 为 跟踪 主要 包括 目标 表示 、 搜 索 方法 和 模板 更 新 这 


三 个 部 分 ; Xi Lili X, Hu W M, Shen CH, et al. A survey of appearance models in visual object 
tracking[J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2013, 4(4): 51-58. Jill 
KER ERA AA Hb 845. REER Jeb PA A be RU NR BIA TOT 7L 
者 对 于 跟踪 步骤 有 不 同 看 法 ， 但 是 其 共性 都 包含 了 目标 特征 表达 《特征 提取 、 目 标 表示 、 
特征 建 模 ) 这 部 分 ， 可 见 目 标 特征 表达 在 视觉 跟踪 中 的 重要 性 。 目 标 特征 表达 直接 关系 者 
跟踪 效果 ， 选 择 合适 的 目标 特征 表达 方法 ， 可 大 大 提升 结果 的 准确 性 。 

理想 的 目标 特征 表达 应 具有 可 重复 性 、 可 区 分 性 以 及 高 效 等 特性 ， 能 够 对 图 像 亮 度 变 
化 、 尺 度 变 化 、 旋 转 和 仿 射 变换 等 足够 鲁 棒 。 本 文 将 目标 特征 表达 方法 分 为 三 种 : 视觉 特 
征 、 数 学 特征 和 语义 特征 。 视 觉 特 征 是 一 种 类 似 于 人 有 眼看 到 的 直观 特征 表达 ， 数 学 特征 是 
将 图 像 信 息 看 成 一 种 抽象 的 数学 信号 来 构建 目标 的 内 在 数学 联系 ， 而 语义 特征 则 是 对 
体内 在 的 类 别 信息 。 表 工 列 出 了 本 文 将 要 描述 的 所 有 目标 特征 表达 方法 。 


"n 
Be 
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Al 目标 特征 表达 分 类 


Table 1 Classification of Target Feature Expressions 


特征 分 类 特征 含义 具体 特征 举例 详细 分 类 
视觉 特征 ”视觉 的 直观 特征 表达 颜色 特征 、 光 流 特征 、H0G 特征 、SIFT 特征 、 HT 


纹理 特征 等 


数学 特征 ”构建 目标 内 在 数学 联系 高 斯 混合 模型 、 子 空间 模型 、WSL 混合 模型 等 第 3 节 
语义 特征 。 表达 物体 内 在 类 别 信息 卷 积 神经 网 络 等 第 4 节 


为 了 对 目标 特征 表达 方法 进行 全 面 地 认识 ， 本 文 对 视觉 跟踪 中 常见 的 目标 特征 表达 方 
法 进行 了 归纳 与 整理 。 本 文 的 结构 安排 如 下 ; 第 1 节 是 引言 ， 第 2"4 节 分 别 详细 地 介绍 了 
视觉 特征 、 数 学 特征 和 语义 特征 ， 并 对 其 进行 了 详细 地 分 析 和 比较 。 第 5 节 对 本 文 进行 了 
总 结 ， 并 提出 了 目标 特征 表达 方法 在 复杂 性 、 准 确 性 和 和 鲁 棒 性 方面 所 存在 问题 。 

2 视觉 特征 
视觉 特征 是 从 图 像 中 提取 出 来 的 用 以 表征 目标 的 某 种 视觉 信号 。 根 据 视 觉 特征 表征 目 
标的 范围 ， 可 分 为 全 局 视觉 特征 和 局 部 视觉 特征 。 全 局 视觉 特征 反映 的 是 目标 表 观 的 全 局 
信息 ， 主 要 包括 颜色 特征 、 光 流 特征 等 。 而 局 部 视觉 特征 主要 提取 感 兴趣 点 或 者 用 显著 性 
检测 的 方法 来 编码 目标 的 表 观 信息 ， 主 要 包括 HOG 特征 、SIFT 特征 、 纹 理 特征 等 。 在 一 些 
复杂 场景 中 ， 一 种 视觉 特征 可 能 难以 有 效 地 表征 目标 ， 因 此 有 时 需要 将 多 种 视觉 特征 进行 
融合 。 下 面 本 文 将 从 全 局 视觉 特征 、 局 部 视觉 特征 、 融 合 视觉 特征 这 三 个 方面 对 常用 的 视 
觉 特 征 进行 简 述 。 

2. 1 全 局 视觉 特征 表达 


C1) 颜色 
频 色 特征 是 各 类 视觉 跟踪 算法 中 应 用 最 为 广泛 的 视觉 特征 ， 它 描述 了 图 像 中 所 包含 物 


体 或 场景 的 表面 属性 。 在 计算 机 视觉 中 ， 描 述 视 觉 目标 的 颜色 空间 有 很 多 种 ， 如 RGB (Red 
ZL. Green 绿 、Blue W) 颜色 空间 黄 国 祥 . RGB 颜色 空间 及 其 应 用 研究 [D]. 中 南大 学 , 2002: 
88.、HSI (Hue 色调 、Saturation 饱和 度 、Intensity 亮度 ) 颜色 空间 庞 晓 敏 , 闵 子 建 , PAIL 
明 . 基于 HSI 和 LAB 颜色 空间 的 彩色 图 像 分 割 叮 . 广西 大 学 学 报 ( 自 然 科 学 版 ), 2011, 36(6): 


976-980., HSV (Hue fi. Saturation 饱和 度 、Value 明度 ) 颜色 空间 Bradski G. Real time 


a 


a 


face and object tracking as a component of a perceptual user interface[C]. Applications of 


Computer Vision, 1998, 214-219., Lab (Luminosity 亮度 ) 颜色 空间 Bolme D S, Beveridge J 


R, Draper B A, et al. Visual object tracking using adaptive correlation filters[C]// Computer Vision 


and Pattern Recognition. IEEE, 2010:2544-2550. 等 ， 不 同 的 颜色 空间 其 稳定 性 不 同 。 不 过 ， 


J. Ross Beveridge 等 人 在 相关 滤波 类 目标 跟踪 算法 中 直接 使 用 了 灰 度 特征 Danelljan M, 
Khan F S, Felsberg M, et al. Adaptive Color Attributes for Real-Time Visual Tracking[C]// IEEE 


Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2014:1090- 
1097.， 虽 然 保 留 了 所 有 颜色 特征 ， 但 是 也 包含 了 很 多 噪声 。 另 外 值得 注意 的 是 ，Martin 
Danelljan Wk 在 HA 标 R BE MH XX 引 入 Color 


Attributes (black, blue. brown, grey. green, orange. pink. purple. red. white, y 
ellow) 共 11 维 颜色 特征 ， 并 将 其 改进 为 10 2E CN 特征 ， 与 此 同时 ， 其 在 跟踪 过 程 中 利用 
PCA 技术 将 CN 特征 降 维 至 2 维 Choi J, Chang H J, Yun S, et al. Attentional Correlation Filter 


Network for Adaptive Visual Tracking[C]// IEEE Conference on Computer Vision and Pattern 
Recognition. IEEE, 2017.。 并 且 作 者 也 在 文中 证 明了 CN 颜色 特征 在 目标 跟踪 领域 中 的 优势 。 


由 于 单纯 的 像素 级 颜色 特征 易 受 噪声 干扰 影响 Kengyew S, Kittler J, Petrou M. Defect 


detection in random colour textures[J]. Image and Vision Computing, 1996, 14(9): 667-683., jl 
色 直 方 图 包含 颜色 统计 信息 ， 能 降低 噪声 的 影响 ， 在 跟踪 中 最 为 常见 更 慧 星 , REN. 基于 
梯度 方向 直方 图 特征 的 多 核 跟 踪 串 . 自动 化 学 报 , 2009, 10): 1283-1289.. Bradski 等 人 


Bradski G. Real time face and object tracking as a component of a perceptual user interface[C]. 


Applications of Computer Vision, 1998, 214-219.7£ HSV 颜色 空间 中 使 用 颜色 直方 图 来 表示 目标 ， 
并 在 Camshift (Continuously Adaptive Mean Shift) 框架 中 实现 视觉 跟踪 。 王 晓 卫 等 人 
ERE, 王旭东 , 贺 明 . 基于 直方 图 比 的 背景 加 权 的 Mean Shift 目标 跟踪 算法 []. 强 激光 与 粒 


子 束 ,2016, 28(05): 19-23. 在 均值 漂移 (Mean Shift ) Fukunaga K, Hostetler L D. The 


estimation of the gradient of a density function, with applications in pattern recognition[J]. IEEE 


Transactions on Information Theory, 1975, 21(1): 32-40. 跟 踪 框 架 中 使 用 目标 和 背景 的 颜色 直 
O 方 图 比值 进行 视觉 跟踪 。 颜 色 直 方 图 的 优点 是 可 以 有 效 获取 目标 区 域 中 视觉 特征 的 分 布 特 
= 性 ， 并 且 不 受 图 像 旋转 和 平移 变化 的 影响 。 但 是 由 于 颜色 直方 图 只 考虑 了 目标 颜色 的 统计 

信息 ， 丢 失 了 目标 颜色 的 空间 信息 ， 使 得 在 跟踪 过 程 中 容易 造成 跟踪 失误 。 因 此 有 研究 者 


提出 了 空间 颜色 直方 图 Birchfield S T, Rangarajan S. Spatiograms versus histograms for region- 


based tracking[C]. IEEE Computer Society Conference on Computer Vision and Pattern 
Recognition(CVPR), 2005. 1158-1163.， 通 过 在 直方 图 的 计算 过 程 中 引入 空间 位 置信 息 以 获得 
较 好 的 跟踪 效果 。 一 般 可 采取 的 策略 有 两 种 ， 一 种 是 联合 “空间 -颜色 ” 建 模 ， 采 用 Cx, 
y, R, G, BD 来 描述 位 置 和 颜色 的 联合 目标 状态 ， 其 中 Gs yo 为 位 置信 息 ，(R，G，B) 
为 颜色 信息 。 另 一 种 策略 则 是 分 块 策略 ， 即 先 将 目标 区 域 分 割 成 若干 块 ， 然 后 将 目标 区 域 
的 空间 信息 融合 到 目标 特征 表达 中 。 
虽然 颜色 视觉 特征 对 于 处 理 部 分 遮挡 、 尺 度 变 化 和 旋转 平移 等 视觉 跟踪 问题 具有 足够 
的 鲁 棒 性 ， 但 在 复杂 场景 中 ， 如 光线 强度 变化 、 目 标 姿态 变化 或 者 场景 中 出 现 相 同 颜色 干 
扰 时 ， 都 会 导致 误 跟踪 。 因 此 在 复杂 场景 中 ， 单 一 地 采用 颜色 特征 进行 视觉 跟踪 ， 跟 踪 效 
果 可 能 不 太 理 想 。 
(2) 光 流 
在 图 像 序列 中 只 要 有 运动 的 存在 ， 就 会 有 光 流 特征 产生 。 光 流 反应 了 图 像 上 每 一 像素 
点 的 灰 度 变化 趋势 ， 不 仅 包含 图 像 中 目标 的 运动 信息 ， 而 且 包 含 了 三 维 物理 结构 信息 。 光 
流 特征 在 视频 分 割 和 视觉 跟踪 中 应 用 广泛 裴 巧 娜 . 基于 光 流 法 的 运动 目标 检测 与 跟踪 技术 
[D]. 北方 工业 大 学 , 2009: 69. 王 亮 . 光 流 技术 及 其 在 运动 目标 检测 和 跟踪 中 的 应 用 研究 [D]. E 
防 科 学 技术 大 学 , 2007: 78.， 一 般 在 跟踪 领域 中 常用 的 光 流 法 有 连续 光 流 法 Nagel H, 


Enkelmann W. An investigation of smoothness constraints for the estimation of displacement 


vector fields from image sequences|[J]. IEEE Transactions on Pattern Analysis and Machine 
Intelligence, 1986, 8(5): 565-593.Kearney J K, Thompson W B, Boley D L. Optical flow estimation: 


An error analysis of gradient-based methods with local optimization[J]. IEEE Transactions on 


Pattern Analysis and Machine Intelligence, 1987, 9(2): 229-244. 和 特征 光 流 法 Weng J, Ahuja N, 
Huang T S. Matching two perspective views[J]. IEEE Transactions on Pattern Analysis and Machine 
Intelligence, 1992, 14(8): 806-825.. 

光 流 特征 的 核心 是 计算 运动 目标 的 速度 ， 在 计算 过 程 中 存在 灰 度 不 变性 原理 假设 


Delpiano J, Jara J, Scheer J, et al. Performance of optical flow techniques for motion analysis of 


fluorescent point signals in confocal microscopy[J]. Machine Vision and Applications, 2012, 
23(451): 675-689. : 假定 视频 图 像 中 国定 点 的 灰 度 值 瞬时 不 变 。 光 流 特征 计算 常用 的 方法 有 


微分 法 和 块 匹 配 法 Delpiano J, Jara J, Scheer J, et al. Performance of optical flow techniques for 


motion analysis of fluorescent point signals in confocal microscopy[J]. Machine Vision and 
Applications, 2012, 23(4S1): 675-689.， 由 于 微分 法 必须 要 求 图 像 可 微 ， 且 当 在 相 邻 图 像 帧 之 
间 的 偏 移 量 大 时 会 产生 较 大 误差 ， 而 块 匹配 法 的 运算 量 比较 大 ， 区 域 块 大 小 的 选择 会 对 光 
流 结果 造成 很 大 的 影响 。 针 对 这 些 不 足 ， 一 些 学 者 提出 了 改进 的 光 流 法 ， 比 如 立体 匹配 光 
流 法 胡 庭 波 , 吴涛 , 贺 汉 根 . 基于 立体 匹配 技术 的 光 流 场 计 算 方 法 吊 . 计算 机 工程 与 科学 ， 


2006, 28(10): 50-53. 、 特 征 光 流 法 Smith S M. ASSET-2: real-time motion segmentation and 


shape tracking[C]. Computer Vision, 1995. Proceedings, Fifth International Conference on, 1995. 


80-85.Shi J, Tomasi C. Good features to track[C]. IEEE Computer Vision and Pattern 
Recognition(CVPR), 1994. 593-600. 等 。 在 视觉 跟踪 中 ， 光 流 特征 的 主要 问题 在 于 大 多 数 光 流 
特征 的 计算 耗 时 ， 不 能 满足 实时 跟踪 的 要 求 。 因 此 很 多 跟踪 方法 都 会 通过 结合 光 流 特征 和 
其 它 方法 的 方式 来 实现 对 目标 的 检测 和 跟踪 ， 例 如 吴起 等 吴起 , 李 良 福 , 肖 樟 树 , et al. 基于 
尺度 不 变 特征 的 光 流 法 目标 跟踪 技术 研究 叫 . 计算 机 工程 与 应 用 , 2013, 49(15): 157-161. 提 出 


先 对 图 像 求 取 SIFT 特征 点 Lowe D G. Object recognition from local scale-invariant features[C]. 


Seventh IEEE International Conference on Computer Visionthe, 1999. 1150-1157.， 再 通过 计算 
特征 点 的 光 流 特征 来 进行 跟踪 ， 陈 添丁 等 陈 添丁 , 胡 鉴 , 吴 涤 . PR RR TE AS H ER 
检测 与 跟踪 叫 . 中 国 图 象 图 形 学 报 , 2013, 18(12): 1593-1600. 采 用 Harris 角 点 作为 特征 点 ， 再 
结合 光 流 特征 来 实现 动 目标 检测 与 跟踪 。 

光 流 特征 的 优势 在 于 可 以 获得 目标 的 运动 参数 ， 不 仅 能 够 对 多 目标 进行 运动 分 析 ， 还 
能 在 不 知道 跟踪 场景 具体 信息 的 情况 下 ， 有 效 地 检测 出 运动 对 象 。 但 是 利用 光 流 特征 进行 
视觉 跟 踊 仍 存在 诸多 局 限 性 ， 在 实时 性 方面 ， 光 流 特 征 的 计算 非常 耗 时 ， 很 难 实现 实时 目 
标 跟踪 ， 在 具有 复杂 场景 的 实际 应 用 中 ， 光 流 计算 的 灰 度 不 变性 假设 条 件 往 往 不 能 满足 ， 
从 而 不 能 求解 出 正确 的 光 流 特征 ， 另 外 ， 光 流 特征 容易 受到 噪声 污染 ， 对 光照 的 鲁 棒 性 较 
差 ， 对 于 跟踪 目标 处 于 静止 状态 的 情况 不 能 处 理 。 
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= 


(3) 其 他 全 局 特征 


边缘 特 4 


fi: Bowyer K, Kranenburg C. Edge detector evaluation using empirical ROC curves[C]. 


IEEE Computer Vision and Pattern Recognition(CVPR), 1999. 100-105. 通 过 检测 目标 边界 的 强度 
变化 来 实现 对 目标 的 检测 与 跟踪 。Canny 边缘 检测 算 子 Wang X, Li B, Geng Q. Runway 


Detection and Tracking for Unmanned Aerial Vehicle Based on an Improved Canny Edge 


Detection Algorithm[C]. International Conference on Intelligent Human-Machine Systems and 


Cybernetics, 2012, 149-152. | 


于 计算 简单 和 精确 度 较 高 的 特点 ， 在 视觉 跟踪 中 应 用 非常 广泛 。 


协 方差 特征 Su Y Y, Zhao Q J, Zhao L J, et al. Abrupt motion tracking using a visual saliency 


embedded particle filter[J]. Pattern Recognition, 2014, 47(5): 1826-1834. 能 够 收集 多 个 矩阵 样本 


之 间 的 协 方差 ， 能 
算 的 低 维特 条 


Hae H 


FE。 主动 轮廓 特征 (Snake) Sun X, Yao H, Zhang S. A novel supervised level set 


标 外 观 的 关联 信息 ， 与 大 多 数 特征 相 比 ， 协 方差 是 一 种 便于 计 


method for non-rigid object tracking[C]. IEEE Conference on Computer Vision and Pattern 


Recognition (CVPR), 2011. 3393-3400. 采 用 带 符 号 的 距离 映射 来 隐 式 地 对 目标 的 边缘 信息 进行 
编码 ， 以 水 平 集 进化 方法 为 基础 ， 能 够 使 用 复杂 的 形状 精确 地 分 割 出 目标 区 域 ， 可 以 用 于 


非 刚体 目标 的 跟踪 。 另 外 ， 


小 波 特征 描述 Jepson A D, Fleet D J, El-Maraghi T F. Robust online 


appearance models for visual tracking[J]. IEEE Transactions on Pattern Analysis and Machine 


Intelligence, 2003, 25(10): 1296-1311. 对 位 置 误 差 、 光 线 等 因素 具有 强 的 鲁 棒 性 ， 也 是 常用 的 


A 


全 局 特征 。 表 2 对 上 述 各 全 


局 特征 表达 进行 了 归纳 。 


表 2 全 局 特征 表达 分 类 


Table 2 Classification of Global Feature Expressions 


全 局 特征 
颜色 
光 流 

边缘 特征 

协 方差 特征 

主动 轮廓 特征 


小 波 特 征 


参考 文献 
[9-23] 


[24-35] 
[2] [36] 
[37] 


[38] 
[39] 


2.2 ”局 部 视 党 特征 表达 


(1) HOG 


方向 梯度 直方 图 


特征 


特点 

对 部 分 遮挡 、 尺 度 变 化 和 旋转 鲁 棒 ， 易 受 噪声 的 影响 
可 获得 目标 运动 参数 ， 可 以 对 多 目标 进行 运动 分 析 ， 以 及 运动 对 象 检测 ; 
计算 耗 时 ， 对 光照 鲁 棒 性 差 
能 检测 目标 边界 的 强度 变化 ， 计 算 简 单 、 精 确 度 高 
能 够 捕捉 目标 外 观 的 关联 信息 
能 精确 的 分 割 出 目标 区 域 ， 可 以 用 于 非 刚体 目标 的 跟踪 

对 位 置 误差 、 光 线 等 因素 具有 和 鲁 棒 性 


(Histogram of Oriented Gradient, HOG) 是 一 种 描述 目标 局 部 轮廓 


与 形状 的 特征 。 与 其 他 的 特征 描述 方法 相 比 ，H06 特征 对 图 像 几 何 和 光学 的 形变 都 能 保持 
很 好 的 不 变性 ， 能 够 很 好 地 表征 图 像 局 部 像素 点 之 间 的 关系 ， 因 此 在 各 种 检测 和 跟踪 算法 


中 被 广泛 应 用 。 


HOG 特 行 


最 初 应 用 在 


目标 检测 领域 ，DalalDalal N, Triggs B. Histograms of oriented 


gradients for human detection[C]. IEEE Computer Vision and Pattern Recognition(CVPR), 2005. 


886-893. fe i HOG 特征 与 SVM 分 类 器 相 结合 的 行人 检测 方法 ， 取 得 了 显著 的 检测 效果 。 在 视 
EREKE, HOG 特征 如 今 已 被 各 种 算法 广泛 使 用 。Henriques 等 Henriques J F, Caseiro R, 


Martins P, et al. High-speed tracking with kernelized correlation filters[J]. IEEE Transactions on 


Pattern Analysis and Machine Intelligence, 2015, 37(3): 583-596. 提出 的 KCF ( Kernelized 


pi 


Correlation Filter) 算法 ，Danelljan 等 Danelljan M, Hager G, Khan F, et al. Accurate scale 


estimation for robust visual tracking[C]. the British Machine Vision Conference, 2014. 524-533. fé 


出 的 DSST (Discriminative Scale Space Tracker) 算法 等 ， 都 使 用 了 HOG 特征 ， 并 取得 
了 较 高 的 准确 率 和 较 快 的 速度 。 

虽然 HOG 特征 被 广泛 应 用 ， 但 是 HOG 特征 仍然 存在 计算 较 复杂 、 特 征 维度 高 、 实 时 性 
较 差 、 检 测 精 度 有 待 进 一 步 提 高 等 问题 。 因 此 ， 一 些 学 者 对 HOG 特征 进行 了 选择 与 融合 ， 
以 提高 跟踪 算法 的 准确 性 和 实时 性 ， 文献 田 仙 仙 , GL, 徐 成 . 一 种 改进 HOG 特征 的 行人 检 
WEEN]. 计算 机 科学 , 2014, 41(09): 320-324. 使 用 Fisher 挑选 准则 对 HOG 特征 块 进 行 筛选 ， 
保留 下 区 分 力 较 强 的 特征 块 进行 行人 检测 ， 提 高 了 算法 的 实时 性 。 文 献 Wu J, Yang S, Zhang 


L. Pedestrian detection based on improved HOG feature and robust adaptive boosting 


` 


algorithm[C]. 2011 4th International Congress on Image and Signal Processing (CISP), 2011. 1535- 


1539.14 HOG 特征 和 Haar 特征 相 结 合 ， 而 文献 Sanin A, Sanderson C, Harandi M T, et al. K- 
tangent spaces on riemannian manifolds for improved pedestrian detection [C]. IEEE 


International Conference on Image Processing ICIP, 2012. 473-476. 将 局 部 保持 投影 (Locality 


Preserving Projection, LPP ) 特征 和 局 部 二 值 模 式 (Local Binary Pattern, 


LBP ) Ojala T, Pietikainen M P, Maenpaa T M. Multiresolution gray-scale and rotation invariant 


texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis and 
Machine Intelligence, 2002, 24(7): 971-987. R vi E, Biz, 陈 文 辉 , et al. 局 部 二 值 模式 方法 研 
TEREP. 自动 化 学 报 , 2013, 39(6): 730-744. 特 征 与 HOG 特征 相 结合 ， 通 过 特征 融合 的 方式 
进行 视觉 跟踪 ， 取 得 了 较 好 的 跟踪 效果 。 


(2) SIFT 特征 
SIFT 特征 即 尺 度 不 变 特征 变换 (Scale-Invariant Feature Transform) 特征 ， 由 


David Lowe 于 1999 年 首次 提出 Lowe D G. Object recognition from local scale-invariant 


features[C]. Seventh IEEE International Conference on Computer Visionthe, 1999. 1150-1157. , 


并 在 2004 年 完善 而 成 Lowe D G. Distinctive image features from scale-invariant keypoints[J]. 


International Journal of Computer Vision, 2004, 60(2): 91-110.。 它 是 一 种 对 目标 的 平移 、 尺 度 、 
旋转 、 亮 度 、 仿 射 、 光 照 等 变化 都 较为 鲁 棒 的 描述 子 。 

由 SIFT 算法 提取 出 的 SIFT 特征 点 具有 高 度 的 特异 性 ， 能 够 保证 算法 匹配 的 精度 ， 因 
此 SIFT 特征 被 广泛 应 用 于 视觉 目标 检测 与 跟踪 中 。Huiyu ZhouZhou H, Yuan Y, Shi C. Object 


tracking using SIFT features and mean shift[J]. Computer Vision and Image Understanding, 2009, 


113(3): 345-352. SIFT 特征 与 Mean Shift 相 结合 ， 并 且 用 期 望 最 大 化 算法 (Expectation 


Maximization, EM) 来 评估 目标 的 置信 区 域 ， 获 得 目标 位 置 ， Saeid FazliFazli S, Pour H M, 


Bouzari H. Particle Filter based Object Tracking with Sift and Color Feature[C]. International 


Conference on Machine Vision (ICMV), 2009. 89-93. 1% SIFT 特征 与 粒子 滤波 (Particle 


Filter, PF) Isard M, Blake A. Condensation - conditional density propagation for visual 


tracking[J]. International Journal of Computer Vision, 1998, 29(1): 5-28. 相 结合 来 构建 跟踪 系统 。 


虽然 SIFT 是 一 个 较为 鲁 棒 的 特征 描述 子 ， 但 其 特征 维度 高 ， 提 取 实 时 性 差 ， 且 存在 对 
边缘 光滑 的 目标 无 法 准确 提取 特征 点 、 匹 配 成 功 特征 点 数目 较 少 、 特 征 点 分 布 欠 均匀 等 问 
。 针 对 这 些 问题 ， 一 些 研 究 者 对 SIFT 特征 进行 了 改进 : PCA-SIFT #5, WMI. 基于 PCA- 
SIFT 特征 的 目标 识别 算法 串 . 电视 技术 , 2013, 37(15): 30-32. 将 SIFT 提取 算法 中 的 直方 图 方法 
换 作 主 元 分 析 法 ， 在 图 像 旋转 和 光照 变化 中 有 较 好 的 性 能 ，SURF (Speeded Up Robust 


Features ) He W, Yamashita T, Lu H, et al. SURF tracking[C]. International Conference on 


Computer Vision (ICCV), 2009. 1586-1592. 包 加 桐 , 宋 爱国 , W=, et al. 基于 SURF 特征 跟踪 的 动 
FFARR]. 机 器 人 , 2011, 33(4): 482-489. 是 SIFT 加 速 版 ， 使 用 积分 图 和 Hessian 4E 
阵 对 其 进行 加 速 ， 不 仅 与 SIFT 的 性 能 几乎 一 致 ， 而 且 还 拥有 更 快 的 计算 速度 。 


(3) 纹理 特征 
纹理 特征 度量 了 图 像 中 物体 表面 区 域 的 灰 度 空间 分 布 ， 描 述 了 方向 、 粒 度 、 密 度 、 粗 


糙 度 、 均 匀 性 、 规 则 性 等 物理 属性 。 纹 理 特 征 主要 包括 Gabor 滤波 纹理 特征 Tian Y L, 


Kanade T, Cohn J F. Evaluation of Gabor-wavelet-based facial action unit recognition in image 


em 


sequences of increasing complexity[C]. IEEE International Conference on Automatic Face and 


Gesture Recognition, 2002. 229-234., 7X J£ Jt ^E 4B [E Haralick R M, Shanmugam K, Dinstein | H. 


Textural features for image classification[J]. IEEE Transactions on Systems, Man, and Cybernetics, 


1973, 15(6): 610-621., LBP 纹理 特征 Ojala T, Pietikainen M P, Maenpaa T M. Multiresolution 


gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE 
Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(7): 971-987. R Y Ei, PK, 
VR CE, et al. 局 部 二 值 模 式 方法 研究 与 展望 吊 . 自动 化 学 报 , 2013, 39(6): 730-744. 等 。 在 视觉 
跟踪 中 应 用 最 广泛 的 纹理 特征 就 是 LBP 纹理 特征 

LBP 纹理 特征 具有 灰 度 和 旋转 不 变性 ， 并 且 计 算 简 单 ， 能 够 有 效 地 描述 目标 表面 变化 
情况 ， 且 对 图 像 噪声 有 一 定 的 鲁 棒 性 ， 因 此 常 作为 跟踪 算法 中 的 一 种 视觉 特征 吴刚 , 唐 振 民 
, 程 勇 , et al. 灰 度 共生 矩阵 纹理 特征 的 运动 目标 跟踪 方法 串 . 南京 理工 大 学 学 报 (自然 科学 版 )， 
2010, 04): 459-463.4° 3%, 赵 英 凯 , 钱 厚 亮 . 一 种 基于 纹理 和 颜色 的 目标 跟踪 方法 叫 . 计算 机 仿 


uh 


H 


, 2011, 28(01): 273-276.Chuan-Xu W, Zuo-Yong L. A new face tracking algorithm based on local 


binary pattern and skin color information[C]. 2008. 657-660.. XTE, 吴 成 柯 . 一 种 基于 纹 


bs. d$ 


和 跟踪 性 能 上 均 有 明显 提高 。 针 对 红外 成 像 ， 文 献 王 永忠 , 赵 春晖 , RE, et al. 一 


理 特征 的 红外 成 像 日 
纹理 特征 的 红外 目标 


理 模 型 的 Mean Shift H fs ER ER SETA]. 模式 识别 与 人 工 智能 ， 
Shift 跟踪 算法 中 ， 使 用 LBP 纹理 特征 作为 目 
复杂 度 较 低 。 在 复杂 的 条 件 下 ， 该 方法 比 基 于 颜色 的 表示 法 在 目标 表达 的 准确 


2007, 20(5): 612-618. 在 Mean 


标 表达 方法 ， 利 用 少量 的 关键 点 准确 描述 目 
性 
ETAL 


标 跟 踪 方法 串 . 光子 学 报 , 2007, 36(11): 2163-2167. 提 出 了 一 种 基于 LBP 


跟踪 算法 ， 较 传统 基于 灰 度 的 跟踪 算法 更 为 鲁 棒 。 


LBP 纹理 特征 的 缺点 是 容易 受 光照 变化 不 均 的 影响 。 为 了 解决 传统 LBP 特征 的 缺陷 ， 


学 者 们 提出 了 一 些 改进 的 LBP 纹理 


特征 : 局 部 三 值 模式 (LTP) Tan XY, Triggs B. Enhanced 


Local Texture Feature Sets for Face Recognition Under Difficult Lighting Conditions[J]. IEEE 


Transactions on Image Processing, 2010, 19(6): 1635-1650. 是 一 种 LBP 的 改进 特征 ， 采 用 三 值 
能 够 有 效 地 解决 光 


LPQ) Ojansivu V, Heikkila J. Blur insensitive texture classification using local 


的 编码 方式 ， 


Quantization, 


phase quantization[C]. Lecture notes in computer science, 2008, 236-243. 则 首先 对 中 心 点 的 


He 


yy 


EE 
噪声 等 问题 ; 


局 部 相位 量化 (Local Phase 


四 


个 方向 进行 频 域 变 换 ， 将 频 域 变 换 得 到 的 的 实 部 和 虚 部 作为 编码 值 ， 不 仅 上 共有 传统 LBP 的 


特点 ， 而 且 还 
(4) 其 他 局 部 特征 


\ 有 模糊 不 变性 。 


Haar 特征 Klesk P, Godziuk A, Kapruziak M, et al. Fast analysis of C-Scans from fround 


penetrating radar via 3-D Haar-Like features with application to landmine detection[J]. IEEE 


Transactions on Geoscience and Remote Sensing, 2015, 53(7): 3996-4009. x Ht f 


化 入 


4 况 ， 通 过 使 用 积分 图 进行 计生 


边缘 、 线 段 比 较 敏 感 。 显 


图 像 的 灰 度 变 


大 大 地 提高 了 图 像 特征 值 计 算 的 效率 ， 但 是 Harr 特征 对 
著 性 特征 CSaliency) Su Y Y, Zhao QJ, Zhao L J, et al. Abrupt 


motion tracking using a visual saliency embedded particle filter[J]. Pattern Recognition, 2014, 


47(5): 1826-1834. 72: Fé T T E H 


兴趣 的 


检测 获取 的 显 


区 域 ， 具 有 特异 性 和 和 鲁 棒 和 


著 性 信息 ， 模 仿 人 类 感知 机 制 来 获取 图 像 中 感 


E， 但 是 对 噪声 和 剧烈 的 光照 变化 非常 敏感 。 另 外 ， 基 于 


分 割 的 特征 Ren X, Malik J. Tracking as repeated figure/ground segmentation[C]. Computer 


Vision and Pattern Recognition, 2007, 1-8.. Harris 角 点 特征 Derpanis K G. The Harris Corner 


pa 


Detector[J]. Symposium Svenska Sllskapet Fr Bildanalys, 2004, 等 也 是 视觉 跟踪 领域 常用 的 局 部 
特征 。 表 3 对 上 述 各 局 部 特征 表达 进行 了 归纳 。 


表 3 局 部 特征 表达 分 类 
Table 3 Classification of Local Feature Expressions 


特点 


对 图 像 的 几何 和 光学 形变 较 鲁 棒 ; 计算 比较 复杂 、 特 征 维度 高 、 


实时 性 较 差 


局 部 特征 参考 文献 
HOG 特征 [40-47] 
SIFT 特征 [34] [48-54] 
纹理 特征 [46-47] [55-63] 


有 光照 、 尺 度 、 仿 射 等 不 变性 ， 维 
有 灰 度 和 旋转 不 变性 ， 计 算 简 单 ; 


度 高 ， 实 时 性 差 
容易 受 光 照 变 化 不 均 的 影响 


Haar 特征 
显著 性 特征 
于 分 割 的 特征 
is 角 点 特征 


Bu 


D 
m 


2.3 全 局 和 局 部 视 
综合 2.1 节 和 2.2 


[uni 


自 的 优点 和 缺点 。 通 常 ， 全 局 视觉 特征 表示 方法 较为 简单 ， 计 算 方 便 快速 ， 但 是 容易 受到 
日 光照 变化 、 形 变 、 旋 转 和 局 觉 


[64] 计算 效率 高 ， 对 边缘 、 线 段 比 较 敏感 

[37] 有 特异 性 和 重 棒 性 ， 对 噪声 和 剧烈 的 光照 变化 非常 敏感 
[65] 能 够 有 效 处 理 非 刚体 目标 的 外 观 、 尺 度 、 外 形 等 变化 

[66] 计算 简单 ， 对 图 像 旋转 、 灰 度 变化 、 噪 声 影 响 和 视点 变换 不 敏感 


觉 特征 融合 
节 的 分 析 ， 视 觉 跟踪 中 的 各 种 全 局 视觉 特征 和 局 部 视觉 特征 均 有 各 


nk 


DESERRI RER. EDGE, Jp US 


于 局 部 视觉 特征 往往 需要 进行 关键 点 检测 ， 而 关键 点 容易 受到 噪声 和 背景 的 干扰 ， 所 以 局 


部 视觉 特征 对 噪声 和 背景 干扰 不 太 鲁 棒 。 另 外 ， 局 部 视觉 特征 需要 提取 图 像 大 量 的 局 部 信 
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视觉 跟踪 的 具体 应 用 环境 决定 了 特定 的 目标 特征 表达 策略 ， 根 据 不 同 的 需求 可 以 对 不 
同 的 全 局 视觉 特征 和 局 部 视觉 特征 进行 有 效 选 择 与 融合 ， 以 实现 优势 特征 间 的 优势 互补 ， 
从 而 获得 鲁 棒 的 多 线索 目标 特征 表达 。 例 如 ， 文 献 Zhang B, Tian W, Jin Z. Efficient hybrid 


appearance model for 


object tracking with occlusion handling[J]. Machine Vision, Pattern 


Recognition, 2007, 46(8): 202-213. 将 目标 的 颜色 特征 和 纹理 特征 进行 融合 ， 作 为 跟踪 目标 的 


特征 描述 ; 文献 Han 


Z, Ye Q, Jiao J. Combined feature evaluation for adaptive visual object 


tracking[J]. Computer Vision and Image Understanding, 2011, 115(1): 69-80. 将 颜色 直方 图 和 方 
向 梯度 直方 图 进行 融合 作为 跟踪 目标 的 特征 描述 ;， 文献 Sun L, Liu G. Visual object tracking 


based on combination 


Circuits and Systems for 


征 融合 ， 建 立 了 混合 的 目标 特征 表达 。 而 对 于 特征 融合 的 方式 也 有 很 多 ， 其 中 Y Li 等 人 通 


of local description and global representation[J]. IEEE Transactions on 


Video Technology, 2011, 21(4): 408-420. 将 全 局 视觉 特征 与 局 部 视觉 特 


过 双 三 次 线性 插值 的 方式 将 HOG. CN 和 灰 度 特征 采样 为 同一 维度 ， 并 结合 LiY Zhu J. A Scale 


Adaptive Kernel Correlation Filter Tracker with Feature Integration[J]. 2014, 8926:254-265.; G 


ZHU 等 人 则 是 先 对 原 图 


提取 CN 和 Lab 特征， 然后 在 此 基础 上 再 提取 HOG 特征 Zhu G, Wang J, 


Wu Y, et al. MC-HOG correlation tracking with saliency proposal[C]// Thirtieth AAAI Conference 


on Artificial Intelligence. 


3 数学 特征 


AAAI Press, 2016:3690-3696.. 


视觉 特征 是 一 种 类 似 于 人 眼看 到 的 直观 特征 表达 ， 而 与 视觉 特征 不 同 ， 数 学 特征 是 将 


可 分 为 高 斯 混合 模型 、 


图 像 信息 看 成 一 种 抽象 的 数学 信号 ， 其 目的 是 构建 目标 的 内 在 数学 联系 。 常 用 的 数学 特征 


子 空间 模型 和 WSL (Wandering. Stable. Lost) 混合 模型 。 表 4 对 


数学 特征 表达 分 类 进行 了 归纳 。 


表 4 数学 特征 表达 分 类 


Table 4 Classification of Mathematical Feature Expressions 


恰当 选取 高 斯 


数 。 


类 的 概率 ， 而 不 是 确定 的 


数学 特征 参考 文献 特点 
高 斯 混合 模 四 能 得 到 属于 每 个 分 类 的 概率 ， 实际 应 用 中 很 难 
[72-73] B 
AY TEŽ 
空间 模型 [74-79] 计算 简单 、 有 效 ; 可 能 存在 高 阶 见 余 信息 
oe 可 以 处 理光 照 变化 和 外 观 变形 ， 有 时 会 将 变化 缓慢 的 背景 估 
[39] [80] es 
型 计 成 目标 
3.1 高 斯 混合 模型 
高 斯 混合 模型 的 构建 思想 是 使 用 一 组 高 斯 分 布 来 近似 描述 目标 外 观 的 概率 密度 函 
高 斯 混合 模型 的 优势 在 于 ， 它 所 得 到 的 结果 是 样本 点 属于 每 个 分 
分 类 标记 。 
在 视觉 跟踪 中 ，Han 等 Han B, Davis L. On-Line density-based appearance modeling for 


object tracking[C]. IEEE International Conference on Computer Vision, 2005. 1492-1499. 提 出 一 


种 使 用 混合 高 斯 密度 函数 的 目 


标 外 观 模型 ， 此 模型 


能 够 应 


用 于 实时 跟踪 场景 。 


Wang 等 


Hanzi W, David S, Konrad S, et al. Adaptive object tracking based on an effective appearance 


filter[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(9): 1661-1667. 


为 了 获取 被 跟踪 目标 的 时 空 描述 ， 提 
color Mixture of Gaussian, 

能 够 在 粒子 滤波 算法 
法 只 考虑 颜色 信息 ，SMOG 外 观 模型 通过 
同时 ， 该 作者 还 将 边 


行 编码 ， 


型 的 判别 能 力 。 


出 了 一 种 空 


SMOG) , SMOG 外 观 模 型 


将 颜色 和 布 
缘 点 的 空 


进一步 增强 了 SMOG 外 观 模 型 的 鲁 棒 性 和 稳定 性 。 


关于 高 


斯 混合 


合 模 型 的 构建 ， 实 际 应 用 中 往往 很 难 


匡 架 内 实现 视觉 跟踪 。 传 统 


间 -颜色 混合 高 斯 外 观 模型 


J (Spatial- 


2 nf VA Fe] ib] Xt E 


基于 颜色 直方 图 的 相似 性 
局 信息 同时 融入 相似 性 度量 ， 
间 分 布 、 梯 度 强度 也 融入 到 SMOG 外 观 模 型 ， 


息 和 颜色 信息 进 
度量 广 
增强 了 模 


[8] fri 


恰当 地 选取 高 斯 分 量 数 。 因 此 ， 很 多 


研究 者 都 采用 经 验 设 定 值 或 者 采用 启发 式 方法 来 确定 ， 但 这 样 会 使 得 跟踪 算法 的 可 扩展 性 
变 差 。 男 外 ， 高 斯 混合 模型 每 一 步 迭 代 的 计算 量 比较 大 ， 而 且 有 可 能 陷入 局 部 极 值 ， 具 体 
地 和 初始 值 的 选取 密切 相关 。 
3.2 子 空间 模型 

子 空间 模型 是 一 种 简化 复杂 问题 ， 揭 示 问 题 主 要 矛盾 的 数学 模型 。 其 本 质 是 将 原始 高 
维 样本 投影 到 一 个 更 有 利于 分 类 的 低 维 特征 子 空间 ， 具 有 计算 简单 、 有 效 等 特性 ， 在 视觉 
跟踪 领域 应 用 广泛 。 

MichaelBlack M J, Jepson A D. Eigen tracking: robust matching and tracking of articulated 


objects using a view-based representation[J]. 1996, 26(1): 63-84. 是 最 早 使 用 子 空 


觉 跟 踪 的 研究 者 之 一 ，1 


于 采用 离线 训练 的 特 梨 


标 外 观 的 变化 。 为 了 解决 这 个 


EF 向量 来 描述 


目标 ， 


Es 


x 间 模型 进行 视 
因此 该 算法 无 法 适应 目 


问题 ，David RossRoss D, Lim J, Yang M. Adaptive probabilistic 


visual tracking with incremental subspace update[C]. European Conference on Computer Vision, 


2004. 470-482. 在 此 基础 上 引入 了 PCA 子 空间 ， 并 提出 了 一 种 能 够 对 目标 特征 向 量 进行 在 线 
更 新 的 增 量 式 PCA 算法 ， 该 算法 对 目标 外 观 的 变化 具有 较 好 的 适应 能 力 。 之 后 ， 针 对 PCA 
子 空间 的 改进 ， 相 关 学 者 又 提出 了 基于 2D-PCAWang T, Gu IY H, Shi P. Object tracking using 


incremental 2D-PCA learning and ML estimation[C]. IEEE International Conference on Acoustics, 


Speech and Signal Processing, 2007. 933-936. 和 & 棒 PCALeonardis A, Bischof H. Robust 


recognition using eigenimages[J]. Computer Vision and Image Understanding, 2000, 78(1): 99- 
118. 的 子 空间 跟踪 算法 。 而 为 了 提高 了 对 复杂 背景 中 目标 的 描述 能 力 ， 近 年 来 基于 张 量 Hu 


W, Li X, Zhang X, et al. Incremental tensor subspace learning and Its applications to foreground 


segmentation and tracking[J]. International Journal of Computer Vision, 2011, 91(3): 303-327. 和 
黎 曼 子 空 间 Li X, Hu W, Zhang Z, et al. Visual tracking via incremental log-euclidean riemannian 
subspace learning[C]. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2008. 
1-8. 的 视觉 跟踪 算法 研究 则 采用 了 更 加 复杂 的 子 空间 理论 及 其 更 新 机 制 。 

由 于 PCA 子 空间 模型 在 进行 数据 处 理 的 过 程 中 往往 只 考虑 数据 的 二 阶 统计 特性 ， 未 涉 
及 到 其 高 阶 统计 信息 ， 因 此 PCA 变换 后 的 数据 间 仍 可 能 存在 高 阶 元 余 信 息 。 


3.3 WSL 混合 模型 
WSL (Wandering, Stable, Lost) 混合 模型 是 


Jepson 等 人 Jepson A D, Fleet D J, El- 


Maraghi T F. Robust online appearance models for visual tracking[J]. IEEE Transactions on Pattern 
Analysis and Machine Intelligence, 2003, 25(10): 1296-1311. 提 出 的 ， 该 模型 的 优势 在 于 可 以 处 
理光 照 变化 和 外 观 变形 。WSL 混合 模型 包含 三 个 分 量 : Wandering 帧 间 变 分 分 量 ( 瞬 态 分 
量 ) 、Stable 目标 稳 态 分 量 和 Lost 噪声 影响 分 量 。 每 个 分 量 都 采用 高 斯 模型 建 模 ， 并 在 
跟踪 过 程 中 基于 在 线 期 望 最 大 算法 更 新 模型 参数 。Jepson 等 人 Jepson D, Fleet D J, El- 


Maraghi T F. Robust online appearance models for visual tracking[J]. IEEE Transactions on Pattern 


Analysis and Machine Intelligence, 2003, 25(10): 1296-1311. 是 采用 滤波 的 方法 来 得 到 目标 外 观 


HY WSL 混合 模型 ， 而 Zhou 等 人 Zhou S, Chellappa R, Moghaddam B. Visual tracking and 
recognition using appearance-adaptive models in particle filters[J]. IEEE Transactions on Image 
Processing, 2004, 13(11): 1491-1506. 则 直接 以 每 个 像素 的 强度 作为 目标 外 观 的 WSL 混合 模型 
在 WSL 混合 模型 中 ， 主 要 是 通过 目标 的 稳 态 分 量 来 进行 目标 的 仿 射 运动 估计 。 因 此 
WSL 混合 模型 的 主要 问题 在 于 ， 稳 态 分 量 有 时 会 将 变化 缓慢 的 背景 也 估计 成 目标 。 
4 语义 特征 
对 于 一 般 的 图 像 、 视 频 而 言 ， 传 统 的 视觉 特征 只 能 表达 目标 的 颜色 、 形 状 、 纹 理 等 低 
层次 结构 特征 ， 因 此 当 目 标 发 生 了 内 在 或 外 在 结构 变化 时 ， 这 些 视觉 特征 对 目标 进行 有 效 
萌 述 的 能 力 较 差 ， 而 数学 特征 将 目标 表达 为 某 种 过 于 抽象 的 数学 模型 ， 当 目标 因为 某 种 外 
企 原 因而 导致 其 数学 分 布 发 生变 化 时 ， 数 学 特征 则 不 能 及 时 适应 此 变化 情况 。 相 比 之 下 ， 
卷 积 神经 网 络 (Convolutional Neural Network, CNN) 作为 一 种 语义 特征 表达 方法 ， 通 过 


ES 


NI 
> 


BH 
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模拟 人 类 神经 元 的 工作 过 程 ， 让 计算 机 像 人 类 一 样 慢 慢 地 认识 世界 ， 了 解 物体 的 内 在 语义 
音 息 。 比 如 一 张 含 有 小 狗 的 图 像 ， 计 算 机 能 够 知道 的 只 是 图 像 中 一 连 串 的 二 进 制 码 ， 而 人 
类 却 能 够 通过 图 像 获 取 “ 小 狗 ” 这 种 语义 信息 。 语 义 信息 是 一 个 物体 所 具有 的 内 在 属性 ， 
当 给 小 狗 图 像 贱 了 予 “ 小 狗 ” 这 种 语义 标签 后 ， 即 使 小 狗 的 形状 、 大 小 、 颜 色 发 生 了 巨大 变 
化 ， 但 是 CNN 仍旧 能 够 根据 语义 信息 来 判定 这 是 一 只 小 狗 。 正 是 由 于 CNN 具有 这 种 强大 的 
提取 语义 信息 的 能 力 ， 使 其 在 计算 机 视觉 的 众多 领域 均 取得 了 巨大 的 成 功 ， 如 : 图 像 识别 


分 类 Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image 


recognition[J]. Computer Science - Research and Development, 2014,He K, Zhang X, Ren S, et al. 
Deep residual learning for image recognition[C]. In Proceedings of the IEEE Conference on 
Computer Vision and Pattern Recognition, 2015, 770-778.Krizhevsky A, Sutskever |, Hinton G E. 
Imagenet classification with deep convolutional neural networks[C]. International Conference on 
Neural Information Processing Systems, 2012. 1097-1105., H i4 Ouyang W, Wang X, Zeng 
X, et al. Deepid-net: Deformable deep convolutional neural networks for object detection[C]. IEEE 
Transactions on Pattern Analysis & Machine Intelligence, 2015. 2403-2412.Girshick R, Donahue J, 
Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic 
segmentation[C]. Computer Vision and Pattern Recognition, 2014, 580-587.. if X4] 3| Farabet 
C, Couprie C, Najman L, et al. Learning hierarchical features for scene labeling[J]. IEEE 
Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(8): 1915-1929.Long J, 
Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[J]. 2016, 10(79): 
1337-1342. 以 及 其 他 领域 Taigman Y, Yang M, Ranzato M, et al. Deepface: Closing the gap to 
human-level performance in face verification[C]. IEEE Conference on Computer Vision and 
Pattern Recognition, 2014. 1701-1708.Toshev A, Szegedy C. Deeppose: Human pose estimation 
via deep neural networks[C]. Computer Vision & Pattern Recognition, 2014. 1653-1660. . 

而 在 视觉 跟踪 领域 ， 一 些 基 于 CNN 语义 特征 的 跟踪 算法 也 取得 了 不 错 的 跟踪 效果 Wang 


N, Yeung D. Learning a deep compact image representation for visual tracking[C]. Advances in 


Neural Information Processing Systems, 2013. 809-817.Hong S, You T, Kwak S, et al. Online 
tracking by learning discriminative saliency map with convolutional neural network[J]. Computer 
Science - Research and Development, 2015, 597-606.Wang N, Li S, Gupta A, et al. Transferring 
rich feature hierarchies for robust visual tracking[J]. Computer Science - Research and 
Development, 2015,， 它 们 通常 采用 CNN 最 后 一 层 全 连接 层 的 输出 特征 作为 表达 跟踪 目标 的 
语义 特征 ， 这 种 特征 具有 良好 的 语义 分 辨 能 力 ， 对 于 跟踪 问题 中 一 些 常见 的 挑战 性 因素 

(例如 形变 、 和 遮挡 等 ) 均 具 有 较 高 的 鲁 棒 性 。 但 是 由 于 CNN 最 后 一 层 所 输出 的 语义 信息 丢 
失 了 过 多 的 空间 位 置信 息 ， 因 此 它 对 于 待 跟踪 目标 的 定位 处 理 往往 不 够 精确 。 马 超 Ma C, 


Huang J, Yang X, et al. Hierarchical convolutional features for visual tracking[C]. IEEE International 


Conference on Computer Vision, 2015. 3074-3082. fil £ 4] Æ Wang L, Ouyang W, Wang X, et al. 


Visual tracking with fully convolutional networks[C]. IEEE International Conference on Computer 
Vision, 2015. 3119-3127. 通 过 研究 发 现 ， 在 CNN 的 浅 层 《前 几 层 ) ， 目 标的 空间 、 形 状 、 位 
置 等 信息 有 很 好 的 保留 ， 但 是 语义 信息 的 描述 力度 不 足 。 而 当 CNN 深度 加 深 时 ， 则 可 以 获 
得 目标 更 为 鲁 棒 的 语义 信息 ， 但 是 又 会 造成 空间 结构 信息 的 缺失 。 因 此 一 些 学 者 Ma C, 


Huang J, Yang X, et al. Hierarchical convolutional features for visual tracking[C]. IEEE International 


Conference on Computer Vision, 2015. 3074-3082.Qi Y, Zhang S, Qin L, et al. Hedged Deep 
Tracking[C]. IEEE International Conference on Computer Vision and Pattern Recognition, 2016. 
4303-4311.Danelljan M, Robinson A, Khan F S, et al. Beyond Correlation Filters: Learning 
Continuous Convolution Operators for Visual Tracking[C]. European Conference on Computer 
Vision, 2016, 472-488. 提 出 在 跟踪 过 程 中 同时 使 用 CNN 提取 的 浅 层 空间 信息 特征 和 深层 语义 
特征 ， 这 样 所 形成 的 综合 特征 不 仅 可 以 精确 地 跟踪 定位 目标 ， 而 且 对 形变 、 光 照 等 挑战 性 
因素 也 具有 很 高 的 鲁 棒 性 。 

为 了 提取 关于 跟踪 目标 的 CNN 语义 特征 ， 就 需要 非常 庞大 的 样本 对 CNN 模型 进行 训练 ， 
而 在 一 般 的 视觉 跟踪 任务 中 ， 能 够 获取 的 训练 样本 远 远 达 不 到 CNN 模型 的 训练 需求 。 因 此 


一 些 学 者 Oquab M, Bottou L, Laptev |, et al. Learning and transferring mid-level image 


representations using convolutional neural networks[C]. Computer Vision & Pattern Recognition, 


2014. 1717-1724.Tompson J, Goroshin R, Jain A, et al. Efficient object localization using 


convolutional networks[C]. Computer Vision & Pattern Recognition, 2015. 648-656. 提 出 了 使 用 


一 个 已 经 在 大 规模 数据 库 Chul ImageNetRussakovsky O, Deng J, Su H, et al. ImageNet Large 


Scale Visual Recognition Challenge[J]. International Journal of Computer Vision, 2015, 115(3): 
211-252.) 中 训练 好 的 预 训练 CNN 模型 ， 再 结合 当前 跟踪 任务 的 训练 样本 ， 对 预 训练 CNN 模 
型 进行 微调 (Fine-Tune) 。 由 于 CNN 语义 特征 县 有 很 好 的 泛 化 性 能 ， 因 此 这 种 Fine-Tune 
的 方法 在 不 同 的 跟踪 任务 上 均 能 取得 显著 效果 。 王 利 军 Wang L, Ouyang W, Wang X, et al. 


Stct: Sequentially training convolutional networks for visual tracking[C]. IEEE Conference on 


Computer Vision and Pattern Recognition, 2016. 1373-1381. ff CNN 和 集成 学 习 (Ensemble 
Learning) 联系 起 来 ， 提 出 了 序 贯 训练 的 CNN 模型 ， 其 采用 了 已 经 在 VGGnet-D 数据 库 


Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. 


Computer Science - Research and Development, 2014, 中 训练 好 的 CNN 模型 作为 预 训 练 CNN 模 
型 ， 并 创新 性 地 将 卷 积 层 的 每 个 通道 看 成 是 一 个 基 学 习 器 并 逐次 训练 ， 最 终 对 所 有 基 学 习 
器 训练 完毕 后 便 可 获得 集成 学 习 器 。 这 种 方法 在 视觉 跟踪 中 取得 了 优异 的 跟踪 效果 ， 但 是 
由 于 其 需要 在 线 地 更 新 CNN 参数 ， 故 其 整体 实现 速度 较 慢 。Martin Danelljan 通过 直接 将 
VGG 网 络 输出 作为 相关 滤波 跟踪 算法 输入 特征 实现 了 state-of-art 的 效果 Danelljan M, Bhat 
G, Khan F S, et al. ECO: Efficient Convolution Operators for Tracking[J]. 2016. 。 为 了 综合 深度 特 
征 的 精准 表达 和 相关 滤波 类 跟踪 算法 的 速度 ，J] Valmadre A KAKE ERA CNN 网 络 


进行 离线 训练 ， 效 果 有 一 定 的 提升 ， 并 且 达 到 了 实时 Valmadre J, Bertinetto L, Henriques J F, 


et al. End-to-end representation learning for Correlation Filter based tracking[J]. 2017.. 


5 结论 


本 文 将 视觉 跟踪 中 常 | 


IE SURE 
到 的 直观 特征 表达 ， 着 重 


于 描述 


了 详细 地 分 析 和 比较 。 


的 目标 特征 表达 方法 分 为 了 


E， 并 对 它们 进行 具体 地 ， 


三 类 ， 分 别 为 视觉 特征 、 数 学 特征 
视觉 特征 是 一 种 类 似 于 人 眼看 


是 随 着 卷 积 神经 网 络 〈CNN) 在 计算 机 视觉 上 的 广泛 应 ) 
相对 于 视觉 特征 和 数学 特征 ， 语 义 特 
遮挡 等 均 有 较 高 的 鲁 棒 性 。 


选择 合 


目标 外 观 的 时 空 信息 ; 
象 的 数学 信号 ， 着 重 于 构建 目标 的 内 在 数学 联系 ， 语 义 特 行 


在 实际 的 视觉 跟踪 任务 中 ， 
适 的 目标 特征 表达 方法 ， 将 大 大 提升 结果 的 准 


而 提炼 


数学 特征 是 将 图 像 信 息 
E 则 是 表达 物体 内 在 的 语义 属 怕 


看 成 一 种 


FE 


、 泛 化 出 的 一 种 新 型 特征 


o 


征 能 够 更 加 有 效 地 体现 物体 内 在 类 别 信息 ， 对 形变 、 
目标 特征 表达 直接 关系 着 最 终 的 跟 


ETATE o 


尽管 目前 关于 目标 特征 表达 方法 的 研究 已 取得 了 众多 的 研究 成 果 ， 但 是 在 复杂 性 与 鲁 


棒 性 、 


颜色 直方 图 、 
的 目标 特征 


梯度 特征 、 


跟踪 算法 吸 需 考虑 的 


HOG 特征 等 ) 
表达 (以 CNN 和 RN 


2) 处 理 目标 特 行 


性 与 鲁 棒 性 


一 般 地 ， 简 单 的 


准确 性 与 鲁 棒 性 方面 仍然 存在 如 下 问题 又 需 解决 : 
1) 处 理 目 标 特 征 表达 在 复杂 
表达 方法 是 视觉 跟踪 中 的 重要 问题 。 


间 的 关系 : 研究 一 种 简单 而 鲁 棒 的 目标 特征 
目标 特征 表达 《如 灰 


度 特征 、 CN 特征 


一 个 重要 问题 。 


EXeX EEN 


难 同时 保证 视觉 跟踪 的 准确 性 和 和 鲁 棒 性 。 针 对 一 些 常 


觉 跟 踪 的 准确 性 ， 往 往 需 要 对 多 种 目标 特征 进行 选择 与 融合 
晶 是 ， 这 样 势必 会 在 提 
棒 性 ， 当 跟踪 目标 发 生 形变 或 者 遮 
在 设计 目标 特征 表达 方法 时 ， 需 要 同时 考虑 视觉 跟踪 的 准确 性 与 鲁 棒 性 。 


入 若干 限制 。 
杂 场 景 下 的 跟踪 鲁 
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